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摘要 : 本 文 提 出 了 沉浸 式 视频 


然 交 互 的 概念 和 应 


场景 ， 同 


时 介绍 了 几 种 能 够 加 强 沉 浸 


法 ， 研 究 其 中 的 关键 技术 。 有 具体 内 容 包括 : 通过 准确 的 视频 对 话 人 提取 和 多 个 视频 对 话 人 
融合 ， 实 现 不 同 空间 位 置 的 远程 视频 交互 ， 使 参与 者 犹如 身 处 同一 个 虚拟 会 议 室 ， 以 排除 
强 沉 浸 式 体验 ;通过 矫正 用 户 视频 镜头 中 的 头 部 姿态 和 视线 方向 ， 实 现 远程 视频 交 户 中 的 
通过 QoE 模型 研究 远程 视频 交互 时 视频 传输 的 自 适 应 调整 问题 ， 保 证 在 带宽 不 对 称 、 终 端 


Pa 


I 


的 高 质量 远程 视频 交互 ， 通 过 采用 远 距离 语音 


有 方向 和 距离 感 的 高 保 真 洲 


局 


采 


[ 浸 式 音频 交互 。 


关键 字 : 沉浸 式 视线 矫 J 


Zl 


以 高 速 交互 的 视 音频 应 有 


， 文 持 多 人 


然 交 互 的 方 


RE 


的 统一 虚拟 场景 
空间 隔离 感 ， 增 


自然 眼神 交流 ; 
不 一 致 的 情况 下 


任意 参与 远程 语音 互动 ， 实 


E 抠 像 QoE 模型 高 保 真 音频 


沉浸 式 视频 交互 以 自然 的 操控 方式 将 远方 
浸 使 分 布 在 不 同 地 点 的 使 用 者 能 够 在 同一 


岗 清晰 连续 、 


为 基础 、 以 人 和 家 庭 为 中 心 的 物 联 网 电视 正 走 进 入 们 的 生活 。 
世界 更 允 真 地 拉 入 眼前 , 并 提供 信息 服务 。 远 程 沉 
虚拟 空间 协同 工作 , 创造 出 “ 比 亲 自 到 对 方 现场 还 


要 好 ”的 环境 。 沉 温 式 视频 交互 将 以 一 种 新 型 的 交互 方式 满足 现代 人 对 快 节 奏 、 个 性 化 、 高 


质量 生活 的 追求 。 


未 来 视频 会 议 将 会 台 
频 、 视 频 、 投 影 、 通 信 等 
技术 来 加 强 视频 沉浸 感 
互 的 自然 性 。 当 人 们 ; 
议 房 间 时 , 无 需 在 固定 位 
视频 设备 建立 连接 , 随时 随地 便 
可 与 对 方 进行 远程 视频 交互 。 摄 
像 头 如 同 对 参与 者 随时 跟踪 ,将 

角度 可 调节 画面 传送 给 对 方 。 
同时 , 传送 过 来 的 数据 通过 投影 
技术 、 虚 拟 场景 融合 技术 ,将 对 
方 人 像 立 体 呈 现在 参与 者 身边 。 
音频 技术 将 收集 处 音 


入 
会 


9 


逼真 虐 
实 结合 


计算 机 
视觉 技术 


自然 眼 精准 前 
神 交 流 景 抠 像 


沉浸 式 自然 交互 


技 村 支撑 


图 1. 


里 参与 者 音 
频 信号 。 参 与 者 无 论处 于 房 | 
以 在 房间 内 3 
的 自然 方式 渗入 人 们 的 生 


1 。o 


昌 何 处 ,与 对 方 的 交流 都 如 同 带 J 
发 地 进行 自己 的 工作 和 参加 视频 会 议 。 视 频 会 议 将 以 一 种 “面对面 ”、 


上 了 耳麦 那样 清晰 


沉浸 式 自 然 交互 技术 支撑 点 


。 未 来 人 们 可 
无 干扰 


总 之 ， 这 种 所 谓 “ 沉 浸 式 自然 交互 ” 指 的 是 在 不 打扰 有 


日 户 原 始 


活动 情况 下 , 让 用 户 在 远程 视频 交互 过 程 中 有 同 处 一 室 的 沉浸 感 , 如同 面 对 面 一 般 自 然 交 流 。 

沉浸 式 视频 是 计算 机 视觉 、 音 频 领 域 极 为 重要 又 具有 深远 意义 的 研究 课题 ,是 未 来 多 媒 
体 视频 技术 的 重要 组 成 部 分 , 共有 极其 广泛 的 应 用 前 景 。 本 文 的 主要 工作 是 关于 沉浸 式 视频 
中 四 个 方面 的 研究 〈 参 见 图 1): 
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基于 精准 对 象 分 割 的 虚实 融合 视频 合成 技术 虚实 融合 


远程 沉浸 式 


交互 者 的 临近 感 ， 为 交互 双 
的 体验 。 这 需要 对 人 的 精准 
场景 进行 融合 。 


于 深度 伪 三 维 信息 合成 的 自然 眼神 交互 技术 眼 # 
不 能 同时 凝视 屏幕 和 摄像 头 ， 没 有 眼神 接触 、 凝 视 
过 眼神 交互 技术 解决 这 一 问题 。 


在 实际 的 视频 交互 中 ， 人 们 


感 等 效果 ， 破 坏 了 远程 视频 交互 的 沉浸 感 ， 必 须 通 
面向 异 构 网 络 和 终端 的 沉浸 式 用 户 体验 质量 自 适应 技术 提高 用 户 体验 质量 


方 建立 统一 


然 交 互 


的 虚拟 场景 ， 


合 是 为 了 加 强 沉浸 


式 视 频 会 议 


让 交互 双方 有 如 同 


在 一 个 地 方 


抠 像 分 制 ， 对 虚拟 场景 进行 建 模 ， 并 将 抠 像 结 果 与 虚拟 


往往 


Quality of Experience) 是 互联 网 的 发 展 目标 ， 远 程 沉浸 应 用 也 
因此 ， 远 程 沉 浸 视 频 必 须 建 立 服 务 质 量 控制 机 种 


的 文 持 。 


交互 关系 着 交互 的 


自然 感 。 但 


依赖 于 


于 用 户 


(CQoE， 
体验 质量 


上 |， 系统 应 能 够 


和 预测 服务 质量 ， 以 实现 系统 参数 的 自 适应 调整 。 


沉浸 式 高 保 真 音 频 交 互 技术 为 营造 自然 、 


使 音频 采集 透明 化 ， 即 说 话 
谈 时 一 样 随时 自由 发 言 ， 另 一 


可 靠 地 评估 


沉浸 式 的 互动 氛围 ， 在 音频 方面 ， 应 该 


人 完全 无 需 在 意 音 
方面 ，1 


远程 传 来 的 音 


频 和 采集 设备 的 存在 ， 可 以 


像 面 对 面 交 


频 在 输出 时 应 具备 


等 位 置 感 ， 产 生出 身 临 其 境 的 共同 交谈 的 感觉 。 


国内 外 发 展现 状 


2.1 基于 精准 对 象 分 割 的 虚实 融合 视频 合 


基于 精准 对 象 分 割 的 虚实 
对 象 分 割 技术 ; 


2.1.1 在 线 视频 精准 对 象 分 割 技术 


在 线 视频 精准 
一 个 比较 痢 


和 重 棒 性 


(2) 虚拟 场景 建 模 技术 ; 


所 的 研究 方向 。 由 于 
E 都 有 较 高 的 要 求 ， 


因此 到 目 


定 ， 且 背 


怀 景 相 对 前 


对 象 分 割 是 实现 沉浸 式 视频 融合 上 


止 的 情况 ， 速度 上 也 上 只 是 铠 强 能 


成 技术 


融合 视频 合成 技术 涉及 的 子 技术 主要 包括 :(1) 在 
(3) 虚实 融合 技术 。 


的 关键 技术 手段 , 也 是 最 近 几 年 才 


在 线 视 频 对 象 分 割 过 程 不 能 
E 常 初级 的 研究 阶段 ， 只 能 处 


前 为 止 还 处 于 


利用 用 户 交 互 ， 


且 其 对 


方向 、 距 离 


线 视 频 精 准 


开始 的 
算法 的 速度 
蛙 摄 像 机 固 


达到 应 用 的 需求 。 现 有 


虚拟 演 


般 都 是 采 


象 视频 ， 


中 
这 样 利用 


Fk 记 法 的 蓝 】 


忆 忆 . 
色 月 味 ， 


用 音 景 :村 


形成 该 颜 人 


法 对 


月 万 


改 


背景 有 特定 的 要 
合成 效果 与 真 
善 前 景 提取 的 质量 。 


求 ， 


区 像 技 术 ， 


ba 


实感 。 由 于 深度 信 


但 是 ， 通 i 


通过 立体 
两 种 深度 信 
度 信 息 实 现 


(1). 


(2). 


号 本 


技术 获取 的 深度 信息 容易 在 平 
县 的 互补 和 矫正 以 实现 精 胡 


昌 区 ] 


就 是 在 特定 颜色 
像 处 理 的 方法 便 可 将 前 景 对 和 象 提取 出 来 。 
昌 摄 像 机 无 法 得 到 前 景 对 和 象 的 三 维 坐 标 , 影响 后 期 的 三 维 
且 对 于 光照 变化 ,动态 阴影 有 具有 和 鲁 棒 愧 
过 深度 传感器 获得 的 深度 信 
成 产生 错误 。 


(一 般 为 蓝 色 ) 的 场景 


息 在 边界 处 容易 产 
因此 ,时 需要 采用 融 


的 前 景 


前 景 的 粗 分 割 , 然后 采用 彩色 
羽化 算法 该 方法 速度 非常 快 ， 但 只 


本 上 


的 边界 会 变 得 模糊 


抠 图 算法 现 有 常 
贝 叶 斯 抠 图 
视频 前 景 提取 系统 中 ， 边 


1 
时 间 轴 上 的 一 致 性 ， 但 


与 背 


>» 


] 的 抠 图 
(Bayes matting)、 


反 


图 像 提取 的 信息 来 修正 分 


处 理 轻 微 的 错误 ， 
合成 之 后 会 有 明显 的 颜色 溢出 ; 


方法 有 : 剔除 (Knockout) 、 
边界 抠 图 (border matting ) 


提取 ,另外 也 可 以 先 基 于 深度 传感器 获取 的 深 
结果 , 这 方面 的 技术 有 : 


羽化 之 后 原本 清 


抽 


诈 且 


十， 使 用 深度 信息 


播 室 系 统一 
拍摄 前 景 对 
背景 标记 方 
场景 视频 
可 以 
生 错 误 ， 而 
合 技术 实现 


晰 


泊 松 抠 图 (Poisson matting)、 


等 方法 。 在 


界 抠 图 被 扩 


10 


一 些 交互 的 


展 到 视频 体 上 。 虽 然 这 样 有 助 于 改善 结果 沿 
在 视频 体 上 难以 以 此 进行 实时 优化 。 此 外 ， 基 于 抠 


ba 


的 方 
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法 通常 都 假设 前 、 背 景 之 间 是 光滑 过 渡 的 ， 因 此 也 不 可 吕 免 地 会 在 边界 清晰 的 地 
方 造成 背景 色 溢 出 。 当 前 景 和 背景 颜色 相似 时 ， 这 种 错误 会 很 严重 。 一 致 抠 图 
(Coherence matting) 在 贝 叶 斯 抠 图 的 基础 上 施加 了 边界 约束 ， 这 样 可 以 增强 算 
法 在 前 景 和 背景 颜色 相似 环境 下 的 鲁 棒 性 。 但 是 抠 图 的 方法 运行 速度 较 慢 ， 很 难 
满足 在 线 视频 分 割 的 实时 性 要 求 。 


(3). 后 处 理 算法 该 算法 是 一 种 基于 颜色 信息 和 边界 信息 的 实时 边界 修正 方法 ， 能 够 
适应 地 调整 过 渡 区 域 的 宽度 ， 使 边界 清晰 但 不 生硬 ， 从 而 能 防止 背景 合成 时 的 
颜色 溢出 。 但 是 该 方法 没有 考虑 到 时 序 一 致 ， 不 能 消除 视频 中 的 闪烁 问题 。 


2.1.2 虚拟 场景 建 模 技术 


虚拟 场景 建 模 ， 即 构造 虚拟 世界 ， 是 三 维 场景 虚实 融合 技术 中 的 另 一 重要 问题 。 虚 拟 三 
维 空间 良好 建 模 是 产生 沉浸 感 和 真实 感 的 先决 条 件 。 场景 太 简 单 ,会 使 用 户 觉 得 虚假 ， 而 复 
杂 逼 真 的 场景 又 势必 会 增加 交互 的 难度 ， 并 影响 实时 性 。 当 前 虚拟 场景 建 模 的 方式 主要 有 : 
基于 图 形 泻 染 的 建 模 技术 、 基 于 图 像 的 建 模 技术 和 基于 图 形 与 图 像 的 混合 建 模 技 术 。 


(D.， 基于 图 形 泻 染 的 建 模 技术 


基于 图 形 泻 染 的 建 模 方 法 是 充分 利用 计算 机 图 形 学 技术 进行 虚拟 环境 的 建 模 和 泻 染 。 首 
先 对 真实 世界 进行 抽象 ， 建 立 数学 模型 (一 般 是 几何 多 边 形 )， 然 后 给 定 观察 点 和 观察 方向 ， 
利用 计算 机 根据 该 模型 实现 多 边 形 处 理 、 着 色 、 消 隐 、 光 照 以 及 投影 等 一 系列 绘制 过 程 ， 产 
生 虚 拟 场 景 。 因 此 ， 虚 拟 物体 的 几何 建 模 、 表 面 材质 的 纹理 映射 、 视 点 光照 的 处 理 是 基于 疼 
形 泻 染 要 解决 的 主要 问题 。 


(2)， 基 于 图 像 的 建 模 技术 


基于 图 像 的 建 模 技术 的 本 质 是 图 形 学 中 广 为 应 用 的 纹理 映射 技术 , 即 用 待 建 三 维 虚 拟 空 
间 的 有 限 幅 图 像样 本 , 在 一 定 的 图 像 处 理 算法 和 视觉 计算 算法 的 基础 上 , 来 直接 构造 三 维 场 
景 。 基于 图 像 建 模 的 方法 可 以 克服 复杂 场景 三 维 建 模 的 困难 , 并 且 可 以 使 用 真实 世界 的 图 像 
提供 更 丰富 的 细节 ， 较 容易 得 到 与 真实 环境 相近 的 效果 , 生成 图 像 的 质量 独立 于 场景 的 复杂 
性 。 其 计算 量 较 小 ， 也 不 受 场景 复杂 度 的 限制 ， 且 对 硬件 的 要 求 也 不 及 基于 图 形 的 建 模 那样 
高 ， 还 可 以 在 微机 上 实现 。 但 由 于 场景 中 的 虚拟 物体 是 图 像 中 的 二 维 对 象 ， 因 而 用 户 很 难 ， 
至 不 能 与 这 些 二 维 对 象 进行 交互 ， 出现 漫 游 失真 。 因 此， 该 方法 仅 适 合 于 基于 真实 日 然 场 
景 的 三 维 虚 拟 环境 的 建立 。 


(3)， 基 于 图 形 与 图 像 的 混合 建 模 技术 


既 要 避免 复杂 场景 几何 模型 的 大 计算 量 , 又 要 满足 实时 性 要 求 , 可 以 采用 基于 图 形 与 图 
像 的 混合 建 模 方法 。 在 虚拟 现实 混合 建 模 中 ， 用 户 可 以 用 “用 户 化 身 (User avatar)” 这 个 特 
殊 的 虚拟 实体 对 象 的 形式 进入 虚拟 场景 , 即 用 户 与 虚拟 场景 的 交互 是 通过 用 户 化 身 与 场景 中 
其 它 虚 拟 实体 对 象 间 的 数据 交换 来 完成 的 。 基 于 图 像 的 建 模 技 术 注 重 虚拟 场景 的 视觉 真实 
性 ， 可 用 于 交互 要 求 少 并 且 场 景 复杂 的 场合 ,用 图 像 的 插 补 、 变 形 、 拼 合 等 方法 来 构造 一 个 
尽 可 能 符合 视觉 要 求 的 纯 虚 场景 。 尽 管 纯 虚 场景 中 的 虚拟 物体 是 二 维 图 像 中 的 纯 虚 对 象 , 用 
户 化 吴 不 能 与 之 交互 ,但 人 们 仍 可 和 凭借 深度 传感器 技术 来 获取 用 户 化 身 相 对 于 图 像 中 纯 虚 对 
象 的 深度 信息 。 基 于 图 形 泻 染 的 建 模 技术 注重 虚拟 场景 交互 行为 的 仿真 和 可 实现 性 ,可 用 于 
用 户 希 望 与 之 产生 交互 作用 的 场景 对 象 。 


2.1.3 虚实 融合 技术 


它 的 实质 是 将 计算 机 制作 的 虚拟 三 维 场景 与 实时 


然 交 互 


远程 沉浸 式 


分 割 的 前 景 对 象 进行 数字 化 的 实时 合 


成 ,使 人 物 与 虚拟 背景 能 够 天 衣 无 颖 地 融合 ， 以 获得 完美 的 合成 画面 。 吉 真 的 虚实 融合 要 求 


前 景 图 像 和 虚拟 场景 
成 的 透视 一 致 和 几何 一 致 , 在 现 有 的 虚拟 演播 
此 只 需 使 用 色 键 技术 ,即将 前 景 图 像 和 
岗 两 者 的 一 致 融合 。 为 了 实现 图 
白松 法 是 在 梯度 域内 ， 基 于 泊 松 偏 微 分 方程 来 进行 
像 的 亮度 相差 很 大 时 ， 泊 松 法 不 能 得 到 满意 的 合成 
的 信息 表示 为 狄 雷 殉 利 边界 条 件 。 当 背 
件 可 近似 为 常数 ， 此 时 泊 松 法 能 合成 出 逼真 的 
上 边界 条 件 是 一 个 非常 数 边 界 ， 因 
此 很 多 研究 者 对 颜 


进行 


以 实 1 
法 。; 
景 ) 和 背景 a 


图 像 
界 条 


色 协 


时 ， 狄 雷 克 和 


了 对 准 ， 因 


医 | 


图 像 的 合成 图 像 保持 透视 一 致 、 几何 一 致 和 光照 


致 。 为 了 实现 氏 


ba 


像 合 


都 将 虚拟 摄像 头 和 真实 


室 系 统 


虚拟 场景 


3 摄 的 摄像 头 


图 像 进行 简单 的 县 加 , 便 可 


像 合 成 的 光照 一 致 , 现 有 的 为 人 们 所 熟知 
图 像 合 成 。 当 片 图 像 ( 
图 像 


调 上 , 因 


区 


像 在 合成 位 置 颜色 
图 像 ; 但 是 ， 当 


是 


的 方法 是 泊 松 
合成 图 像 的 前 


因为 泊 松 法 是 将 背景 
由 很 接近 时 ， 狄 雷 克 利 边 
合成 位 置 颜色 值 相差 较 大 


此 泊 松 法 效果 不 好 。 
色 协 调 进行 了 研究 。 不 同 多 


肥 


两 个 方面 。 事先 定义 一 定数 量 


图 像 的 颜 
使 2 


法 ,能够 量化 视觉 突出 性 。 


色 协 调 表示 为 图 像 与 颜 
与 颜色 协调 模板 相 一 致 。 还 有 


色 协 调 模板 的 最 佳 


些 丰 


的 视觉 突出 性 是 指 图 


c 配 问题 ， 通 过 调节 图 


图 像 


景 对 人 视觉 刺激 敏感 的 程度 、 位 置 。 人 有 眼 能 够 利用 这 种 特性 轻松 地 识别 物体 。 
2.2 自然 眼神 交互 技术 


自然 眼 * 
知觉 性 的 注意 力 和 意 
频 交 互 系统 ， 

太 可 能 


要 注视 处 于 屏幕 上 的 对 方 而 无 法 正视 
法 进行 眼神 的 交互 。 研 究 表明 ， 当 摄像 头 光 轴 和 人 注视 屏幕 视线 之 间 
交流 的 丢失 就 比较 明显 了 ， 而 传统 的 


然 眼神 交流 ,目前 的 解决 办 法 主要 分 为 两 类 。 


眼神 


男 


交互 技术 是 实现 沉浸 式 远 程 视频 交互 的 关键 技术 ， 在 辨 1 
然而 , 在 传统 的 远程 视 
， 摄像头 一 般 置 于 视频 / 


于 光照 一 
像 之 间 的 颜色 协调 包括 亮度 和 
的 颜色 协调 模版 是 绘画 广泛 采用 的 技术 。 一 些 研 究 者 把 合成 
像 的 亮度 、 饱 和 度 
究 者 提出 了 一 种 基于 色 度 和 亮度 的 颜色 距离 计算 方 
像 内 在 的 、 不 变 的 视觉 特性 ， 描 述 了 场 


致 性 反映 在 颜 
名 


EE 


只 视频 


二 = 


4 


图 及 其 他 方面 


奶 的 过 程 中 都 有 很 重要 的 作用 。 
: 幕 上 方 ， 在 本 地 和 远程 视频 之 间 的 双向 


的 。 这 个 矛盾 来 源 于 摄像 头 光 轴 


和 人 注视 屏幕 视线 之 间 的 夹 角 。 


为 了 实现 


类 则 是 通过 软 伯 


用 G 


PU 实现 插 


置 ， 


日 . 池 
征地 


心虚 


参与 摄像 机 外 参数 标定 , 人 硬件 设备 一 旦 固定 就 不 能 轻易 变动 。 同 


目 


矫正 的 方式 实现 。 在 基于 便 件 
值 技术 保证 眼神 交互 ， 另 一 种 则 是 将 半 呈 

的 位 置 ， 从 而 达到 克服 眼神 缺失 的 目的 。 但 基于 人 硬件 的 方法 需要 昂贵 的 设备 费用 和 复杂 的 配 
因此 在 现实 中 难以 推广 。 


前 , 基于 计算 机 视觉 和 
过 双 摄 像 头 进行 立 


话 会 议 系统 不 文 持 眼 


六 
信访 。 


视频 对 话 的 双方 
摄像 头 ,使 得 视频 中 对 话 人 多 呈 低 头 而 非 平视 姿态 ， 
的 夹 角 大 于 5” 时 候 


的 轮流 发 言 、 


眼神 交互 是 不 
于 
无 


类 是 通过 改变 硬件 设备 实现 ， 
EF 
候 


安置 多 个 摄像 头 ， 


的 方法 中 ， 一 种 是 通过 安 


透明 反射 镜 


图 像 处 理 的 方法 在 视线 矫正 
本 分 析 ， 可 以 得 到 场景 的 深度 图 ， 进 而 对 多 幅 图 


拟 视 角 


的 效果 ， 从 而 保证 


一 定 角度 对 准 视线 凝视 


被 广泛 采用 。 现 有 的 方法 中 一 种 
像 进行 融合 ， 


/A 三 有 
犬 伍 中 


眼神 交互 。 但 是 此 方法 的 硬件 需要 按 规定 安置 ， 


并 且 需 要 人 工 


时 由 于 多 幅 医 


固定 在 多 摄像 机 的 ， 
另 一 种 方法 是 将 眼睛 虹 


心 


草 检 测 、 眼 睛 轮 


廓 检测 算法 用 于 眼神 矫正 


像 的 融合 点 被 


立 置 ， 无 法 对 用 户 的 位 置 变化 自 适应 ， 使 得 矫正 后 眼神 依然 有 偏差 。 
中 ,一 旦 眼睛 的 位 置 被 确 


定 ， 


可 通过 变换 眼睛 局 部 图 像 来 达到 眼神 直 视 的 效果 。 但 是 算法 没有 针对 吴 体 和 头 部 进行 相应 的 
， 使 得 矫正 之 后 的 图 像 中 眼神 跟 人 身体 其 他 部 分 不 协调 。 


处 理 


2.3 沉浸 式 视 频 的 用 户 体验 质量 模型 研究 


rt 


沉浸 式 视频 的 


] 户 体验 质量 模型 


究 , 是 视频 领域 


12 


究 学 者 热门 研究 课题 
究 者 提出 了 用 户 体验 质量 的 评价 方法 来 自动 处 理 视频 质量 的 问题 。 在 经 过 影像 压缩 之 后 ， 


， 领 域 的 许多 


第 并 之 卷 第 2 期 信 ， 


的 景 ee a 


让 技术 世 


Information Technology Letter 


em 样 。 ae 


报 


意 。 由 于 峰值 信 噪 比值 只 有 当 图 像 如 
统 ， 这 也 是 这 种 方法 的 一 个 次 端 。 


系 


E 接 收 端 重 


用 户 体 验 质量 最 初 是 从 通信 和 领域 提出 的 概念 ， 
的 通信 业务 性 能 的 主观 感受 。 


j 户 对 于 网 络 提供 
范围 越 来 越 广 ， 通 常 通 过 对 用 户 体验 质量 


随 着 媒体 技术 的 发 展 , 用 户 体验 质量 延 
进行 量化 分 析 来 研究 用 户 对 服务 
验 和 感受 。 用 户 体验 质量 和 服务 质量 参数 都 可 以 反映 服务 质量 的 好 坏 , 但 是 


要 强调 ] 


通常 应 


用 户 的 主观 感受 
j 层 服务 质量 参数 性 能 


而 应 用 层 服务 质量 


时 从 客观 性 能 参数 方面 
或 高 ， 则 用 户 感 受 的 用 户 体验 质量 也 就 越 好 。 


认定 某 个 


处 理 
E 新 建立 时 才 进 行 计算 , 所 以 它 不 适用 于 实时 
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过 处 理 后 的 影像 品质 , 通 


-不作 


程序 


定义 为 用 户 可 以 感知 的 服务 质量 


于 丐 侣 信 


时， 即 终 端 


质量 


摆 来 ; 


Vv 


> 


前 
以 往 的 研究 重点 多 在 于 服务 质量 的 保证 


但 


是 最 终 衡 


量 。 服 务 质 量 是 为 了 保证 或 提高 用 户 体验 质量 


而 应 用 在 网 络 


站 


关联 。 相 对 于 不 同 的 业务 而 言 ， 服 务 质量 的 标准 不 一 定 适 用 于 
的 服务 质量 。 


可 能 对 每 个 业务 的 每 个 用 户 都 保证 
2.4 沉浸 式 高 保 真 音频 交互 


同等 


当前 已 有 的 远程 视 音频 互动 系统 多 数 面 向 视频 会 


视频 品 质 的 标准 


的 技术 指标 ,与 


与 者 单独 配备 麦 


= 


近 讲 麦克 风采 和 
远程 亲情 互动 对 音 ; 

对 于 远程 
风 和 执行 额外 操作 ， 


攻 其 语音 ， 因 
频 的 要 求 。 


pa 


交谈 。 


开 应 支持 多 人 目 | 


克 风 , 在 参与 者 发 言 时 开启 麦克 
i, 提高 音频 质量 ， 但 是 操作 相对 繁琐 。 
此 远 端 听 到 的 语 


音 没有 方向 和 


情 互动 而 言 ， 首先 ， 系统 应 简单 易 用 ， 使 说 话 人 无 需 手 


和 持 、 


风 以 开始 音频 采 
另外 ， 对 于 不 同 发 言 人 ， 


蕊 。 


人 


的 


(QoS ) 的 体 
户 体验 质量 主 
平价 媒体 的 服务 质量 


在 于 用 户 体 验 质 
具体 的 业务 相 
] 户 体验 质量 有 限 的 资源 不 


议 的 应 用 , 在 音频 方面 , 一 般 为 每 位 参 
集 。 这 种 方式 可 避免 环境 噪 
以 完全 相同 的 方式 
E 离 感 。 这 样 的 系统 不 大 符合 


次 ， 为 营造 沉浸 式 的 亲情 互动 氛围 ， 输 出 音频 应 能 重 现 方向 、 距 


Xr A Fy Ed 大 下 
离 等 位 置 感 


佩戴 或 靠近 麦 死 


EE 
[| 


身 临 其 境 ， 共 同 交 谈 的 感觉 。 这 要 利用 心理 声学 中 著名 的 哈 斯 效应 “欺骗 ”人 耳 的 方法 ， 
作用 是 使 人 能 产生 音源 的 位 置 感觉 。 传 统 的 双 通 道 立体 声 是 无 法 分 出 上 方 和 下 方 的 音源 的 ， 
所 以 严格 意义 上 来 讲 ， 并 不 能 称 之 为 三 维 音频 效应 ， 而 且 在 这 种 播放 系统 中 ， 只 有 位 于 中 心 
点 的 最 佳 听 音 点 的 听众 ， 才 可 以 听 到 再 生 的 空间 效果 。 
3 ”我 们 的 研究 工作 介绍 

远程 视频 正 向 大 屏幕 、 高 分 辩 率 方向 发 展 。 下 一 代 的 远程 视频 要 求 在 自然 沉浸 式 方面 有 
所 突破 。 我们 在 上 述 四 个 增强 沉浸 式 的 方向 上 提出 了 自己 的 解决 方案 , 形成 了 沉浸 式 自 然 交 


互 的 技术 突破 。 


3.1 基于 精准 对 象 分 割 的 虚实 融合 视频 合成 技术 研发 


3.1.1 在 线 视 频 精 准 对 象 分 割 技术 


四 笠 | 拓 


考虑 到 深度 数据 对 天 气 、 光 照 、 阴 
像 头 日 
RGB 


明寺 


ba 


的 数据 协同 工作 ， 解 决 复杂 场景 下 人 物 对 象 的 分 
像 ，(2) 为 深度 摄像 头 同 步 采 集 的 深度 图 


因素 的 鲁 棒 性 ， 本 文采 月 


宝 


训 。 图 2 中 ， 


口 


像 。 


在 我 们 的 研究 中 , 首先 采用 深度 摄 
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h，(1) 为 普 


象 头 的 实时 深度 图 像 识别 出 人 体 对 和 象 的 三 


维 


深度 摄像 头 与 RGB 摄 
对 通 摄像 头 获 取 


坐标 及 


的 


Xl 


域 ， 然 后 将 深 


图 像 上 的 分 割 。 


远程 沉浸 式 自然 交互 


采 度 图 像 的 人 体 对 象 区 域 映 射 到 同步 采集 的 RGB 网 像 


上 ， 实 现 人 体 对 象 在 彩色 


图 3 (1) 为 在 深度 图 像 中 人 体 对 象 分 割 结 果 ， 将 


结果 直接 映射 到 RGB 图 像 中 ， 可 实现 人 体 对 象 与 背景 的 分 离 ， 如 


深度 图 像 中 人 体 对 象 分 割 
图 3 (2) 所 示 : 


(1) 基于 深度 图 像 的 (2)RGB 图 像 的 人 


(1) RGB 图 像 (2) 深度 图 像 es | 
图 2. 同步 采集 的 RGB 图 像 和 深度 图 像 图 3. 人 体 对 象 分 割 效果 图 


从 图 中 可 以 看 出 ， 直 接 将 深度 图 像 的 人 体 对 象 分 割 结果 映射 到 RGB 图 像 中 得 到 的 分 割 


效果 比较 差 , 最 主要 原因 在 于 由 深度 传感器 获得 的 深度 图 像 在 深度 非 连 续 处 容易 出 现 错误 或 


丢失 ,以 致 基于 深度 图 像 的 人 体 对 象 分 割 容 易 在 前 景 和 背景 的 交界 处 出 现 误 分 割 。 我 们 采用 
了 高 效 优质 的 后 处 理 算法 ， 以 期 实现 精准 信物 对 象 分 割 。 该 后 处 理 


动 和 时 序 信息 ， 以 实现 时 序 一 致 的 边界 优化 效果 。 该 算法 首先 使 用 


计算 每 个 待 处 理 像素 的 


前 两 帧 的 运动 概率 图 ， 接 着 以 运动 概率 作为 权 值 ， 求 取 局 部 alpha 


和 作为 待 处 理 


象 素 的 alpha 值 。 由 于 上 述 的 边界 优化 算法 只 能 消除 


割 现 象 , 却 不 能 处 理 前 景 内 部 由 于 深度 丢失 造成 的 误 判 现象 , 当 目 标 人 佩戴 眼镜 或 者 头发 披 
散在 肩头 的 时 候 , 在 眼镜 与 脸 部 或 者 头发 与 肩 部 的 交界 处 都 会 有 深度 丢失 的 现象 , 会 形成 前 
的 孔洞 , 这些 孔洞 的 出 现 将 会 大 大 影响 分 割 的 精度 。 


景 误 判 为 背景 


前 景 填充 。 然 而 ， 由 于 目标 人 的 又 腰 动 作 也 会 在 前 景 内 部 形成 孔洞 ， 所 以 不 能 将 前 景 内 部 的 
也 填充 。 本 文 根 据 深度 传感器 获得 的 深度 数据 的 特性 , 给 出 了 一 种 前 景 孔 


所 有 孔洞 进行 笼统 


洞 的 判别 算法 。 

首先 ， 我 们 通过 轮廓 算法 找到 二 值 分 割 图 像 
中 的 所 有 轮廓 ， 然 后 判断 每 个 轮廓 的 内 部 区 域 是 
否 存在 深度 不 为 0 的 像素 。 如 果 存 在 ， 则 该 轮 廊 


内 部 区 域 不 需要 进行 填充 ， 因 为 该 轮廓 不 是 由 于 
深度 缺失 造成 的 孔洞 的 边界 。 当 轮廓 包含 区 域 的 
像素 的 深度 全 部 丢失 的 时 候 ， 该 轮廓 所 包含 的 区 
域 成 为 候选 前 景 孔 洞 。 对 于 候选 前 景 孔 洞 ， 本 文 
给 出 一 种 基于 轮廓 边 
前 景 孔 洞 判别 算法 。 区 别 于 传统 的 梯度 边缘 ， 本 


文采 用 边界 ; 


月 


晰 度 作 为 判别 轮 廊 像素 的 边缘 的 依 
据 。 另 外 ， 为 了 快速 对 动态 背景 建 模 ， 本 文采 用 


缘 和 区 域 背景 颜色 相似 度 的 


累积 背景 直方 图 对 背景 像素 的 颜色 分 布 建 模 。 图 4. 
算法 效果 如 图 4 所 示 。 
”颜色 中 的 第 四 个 成 分 ， 通 常 alpha 值 为 1 表示 完全 不 透明 ，0 表示 完全 透明 
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算法 融合 颜色 、 边 界 、 运 
局 部 颜色 模型 和 边界 函数 


局 部 alpha 值 ， 然 后 采用 一 种 简单 的 运动 估计 法 , 估算 当前 帧 与 相 邻 


值 和 时 序 alpha 值 的 加 权 


前 景 与 背景 交界 处 的 误 分 


因此 需要 将 这 些 孔洞 进行 


实时 前 景 提取 效果 图 
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3.1.2 虚拟 场景 建 模 


沉浸 式 视频 需要 与 用 户 的 行为 产生 交互 ， 实 现 沉 浸 感 。 因 此 本 文采 用 便于 用 户 交互 的 基 
于 图 形 演 染 的 建 模 技 术 , 并 应 用 已 有 的 建 模 技术 和 纹理 映射 技术 以 及 阴影 处 理 技术 给 出 一 套 
建 模 方案 。 另外 ,为 了 增强 虚拟 环境 的 沉 漫 性 ， 本 文 还 将 给 出 一 套 基于 用 户 位 置 感知 的 互动 


交互 方案 。 


模型 的 建立 是 创建 虚拟 环境 的 基础 。 对 于 需要 实时 与 用 户 进行 互动 交互 的 虚拟 环境 ， 对 
模型 的 处 理 显 得 尤为 重要 。 过 多 的 模型 细节 会 严重 降低 模拟 的 速率 , 为 了 在 模型 的 细节 和 复 
杂 性 之 间 寻 求 平 衡 ， 我 们 使 用 纹理 代 蔡 部 分 模型 细节 。 另 外 ,我 们 在 建 模 过 程 中 对 模型 进行 
分 块 ， 这 样 既 可 以 减 小 建 模 的 难度 ， 又 可 以 通过 分 块 显 示 提 高 仿真 效率 。 在 实际 的 建 模 过 程 
中 ， 本 文 根 据 需 建 模型 的 特点 选择 建 模 方 法 。 对 于 有 规则 平面 的 几何 体 ， 采 用 多 边 形 建 模 方 
法 ; 对 于 复杂 曲面 的 几何 体 ， 则 使 用 面 片 或 者 NURBS?。 因 为 要 达到 同样 的 曲面 效果 ， 面 片 
和 NURBS 需要 的 节点 和 面 数 要 少 些 。 对 于 纹理 映射 问题 ,本文 主 要 采用 最 近 广 泛 应 用 的 环 
境 纹理 映射 技术 实现 材质 的 逼真 纹理 映射 ， 对 于 明暗 处 理 ， 则 主要 使 用 Phong 模型 ”。 

另外 由 于 我 们 采用 了 深度 传感器 , 因此 可 以 精确 地 感知 用 户 的 位 置信 息 ， 从 而 可 以 实现 
虚拟 场景 与 用 户 的 互动 交互 ， 增 强 用 户 的 行为 沉浸 感 。 
3.1.3 虚实 融合 

在 本 文中 , 前 景 图 像 来 源 于 远 端 摄像 头 拍摄 的 真实 画面 ,虚拟 场景 图 像 来 源 于 本 地 虚拟 
摄像 头 实 时 绘制 的 虚拟 画面 ， 为 了 实现 两 者 的 无 颖 融合 ， 我 们 的 研究 采用 了 如 下 方案 : 
(1)， 基 于 前 景 姿态 的 环境 一 致 的 图 像 合 成 

在 本 文中 , 针对 坐 和 站 两 种 姿态 构造 了 不 同 的 虚拟 场景 ,以便 实现 环境 一 致 的 图 像 合 成 。 
在 远程 视频 呈现 的 客户 端 , 通过 网 络 接收 到 填充 的 视频 图 像 后 ， 首 先 根据 填充 方案 ,进行 二 
次 抠 像 ,还原 远 程 人 物 对 象 的 图 像 ， 然 后 根据 前 景 的 轮廓 ， 辨别 前 景 的 姿态 并 据 其 选择 虚拟 
场景 ,， 最终 将 前 景 辣 加 到 虚拟 场景 的 合适 位 置 ， 实现 台 真 的 合成 效果 。 对 于 站 姿 构造 的 虚拟 
场景 ， 我 们 将 使 其 可 移动 空间 最 大 化 ， 避 免 出 现 前 景 穿 过 虚拟 场景 物体 的 失真 现象 。 


图 5. 站 姿 合 成 效果 图 图 6.。 坐姿 合成 效果 图 
(2)， 基于 深度 信息 的 几何 一 致 的 图 像 合成 
由 于 在 本 文中 , 拍摄 前 景 图 像 的 远 端 摄像 头 和 绘制 虚拟 场景 的 虚拟 摄像 头 并 不 一 定 存 在 


校准 关系 ， 因 此, 不 能 直接 将 前 景 图 像 命 加 到 虚拟 场景 图 像 中 ， 而 应 该 重新 计算 前 景 图 像 在 


? Non-Uniform Rational B-Splines， 非 均匀 有 理 B 样 条 曲线 。 一 种 建 模 方式 
3 一 种 光照 模型 ， 可 以 表述 为 ， 由 物体 表面 上 一 点 P 了 反射 到 视点 的 光 强 了 为 环境 光 的 反射 光 强 工 、 
反射 光 强 五 和 镜面 反射 光 瑟 的 总 和 


理想 漫 


En 
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然 交 互 


远程 沉浸 式 


虚拟 场景 中 的 缩放 比例 ， 实 现 几何 一 致 的 图 像 合成 。 


本 文中 , 由 于 采用 了 深度 摄像 头 , 因 


此 可 以 根据 深度 信息 快速 才 


点 的 真实 三 
世界 的 高 度 , N 为 远 端 前 景 图 
像 中 的 缩放 比例 可 以 通过 下 式 计算 : 


ba 


拟 场景 


其 中 ， 


维 坐标 ， 从 而 获取 前 景 图 
像 在 远 端 视频 


S=dxH/N 


A 取 前 景 


名 


象 中 每 个 像素 


像 在 真实 世界 的 高 度 。 假 设 五 为 远 端 前 景 
图 像 中 的 高 度 像素 数 ， 则 远 端 前 


有 忆 . 
所 


图 


4 是 本 地 虚拟 场景 


真 融合 。 


(3). 


我 们 针对 图 像 合成 中 的 光照 


基于 视觉 突出 性 的 光照 一 致 的 图 像 合成 


致 


轴 使 片 图 


法 。 该 方法 
觉 突 出 性 通过 综合 色 度 和 亮度 特性 计算 
像 和 背景 
表示 为 受 视 觉 突 出 性 约束 的 非 线性 优化 问题 ， 从 而 使 合成 


突出 性 计算 、 


视觉 


4 是 全 
SE 


问题 , 采用 一 种 保持 视觉 突出 性 


的 光照 一 致 


白 点 校正 通过 对 齐 片 图 


导 到 |; 


图 


像 达 到 白 点 一 致 ;基于 视觉 突出 性 和 


保持 原来 的 视觉 突出 性 。 
3.2 基于 深度 伪 3D 信息 合成 的 自然 眼神 交互 技术 研发 


针对 现 有 眼神 矫正 方法 的 不 足 , 我 们 提出 一 种 基于 虚拟 视角 的 眼神 第 
对 多 摄像 头 获 取 的 图 像 在 固定 虚拟 视角 点 进行 融合 的 技术 路 径 不 
角 将 跟随 人 眼 的 位 置 变动 .具体 做 法 是 将 真实 摄像 机 
标 系 下 的 三 维 数据 ， 再 重 投影 到 虚拟 摄像 机 成 像 平 面 。 同 时 ， 现 有 方法 
模型 中 的 外 参数 进行 人 工 标定 , 而 且 要 求 硬件 设备 不 能 随意 变动 , 因 
针对 此 问题 , 我 们 提出 了 基于 虚拟 坐标 系 的 几何 模型 。 利 


和 去 ! 


原点 的 偏 移 量 进 
数 标定 过 程 ， 也 无 需 固 定 硬 件 设备 


旋转 平移 
上 和 


三 维 点 去 


F 获 得 的 三 


的 光照 亮度 调 


白 点 校正 和 根据 视觉 特性 进行 光照 亮度 调整 三 部 


图 像 在 真 咏 
象 在 本 地 虚 


膨 加 位 置 处 的 “像素 分 辨 率 ”( 单 位 长 度 的 像素 数 )。 计 算出 


缩放 比例 后 , 便 可 以 通过 对 应 的 放大 或 缩小 操作 实现 远 端 前 景 图 像 和 虚拟 场景 大 小 一 致 的 通 


图 像 合成 方 
分 组 成 。 视 


象 和 背 


蔷 


整 把 光照 一 


攻 | 


像 不 仅 具 有 


图 


象 的 颜色 主 


光照 一 致 特性 


致 图 像 合成 
》 且 能 


此 
该 模型 能 对 硬件 昌 


EF 方法。 与 传统 方 
同 , 我 们 设置 的 虚拟 视 
全 数据 转换 为 虚拟 摄像 机 坐 
FP 一 般 需 要 对 摄 相机 
降低 了 方法 的 灵活 性 。 
E 离 虚拟 坐标 系 


行 自 标 定 。 这 使 得 在 对 摄像 机 内 参数 进行 一 次 性 标定 之 
科 置 ， 增 加 了 普 适 性 。 方 法 流程 如 图 7 所 示 


图 7. 漂移 量 自 标 定 方法 流程 图 
首先 ， 该 方法 需要 获取 彩色 图 像 及 与 彩色 图 像 对 齐 的 深度 网 
理 阶 段 使 用 传统 方法 对 摄像 机 内 参数 进行 一 次 标定 。 由 
的 位 置 发 生 改变 而 变动 , 我 们 提出 了 一 种 在 前 期 处 理 阶段 对 外 参数 进行 
摄像 机 内 参数 和 图 像 深 度数 据 依 据 摄像 机 模型 即 可 获得 
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后 无 需 


] 户 参与 外 参 


重 投影 到 
二 维 图 像 


ER TOE OE ET eR OE = ET OVE PE RE A 


像 作 为 原始 数据 。 在 前 期 处 
于 虚拟 坐标 系 下 的 外 参数 会 


因 摄 像 机 


标定 的 方法 。 根 据 
摄像 机 坐标 系 下 的 三 维 点 云 数 据 ; 再 


第 12 卷 第 2 期 


根据 虚拟 4 
次 利用 摄像 机 
线 矫正 的 目的 。 


在 虚拟 摄 
摄 相机 的 摄 


复 机 名 
凝视 摄像 机 平面 


户 


内 参数 将 虚拟 4 


的 水 平和 垂直 


朵 


设 为 97 ,a 


感 ， 本 文 将 虚拟 4 
标 系 的 Y 轴 


为 彩色 摄 
仰视 人 


轴 绕 虚 


像 头 和 


度 ， 这 是 为 了 修正 水 平方 向 带 来 的 
虚拟 相机 内 参数 与 彩 ; 


象 机 的 摄像 机 模型 9 


移 量 分 别 为 Xort 、 


信 ， 


让 技术 世 


报 


Information Technology Letter 


再 旋转 a 


和 Z 加 


绕 采 有 彩 


机 外 参数 是 不 同 的 ， 


ba 


射 到 二 维 


像 


因此 算法 需要 根据 -| 


上 ， 就 得 到 最 终 的 效果 


图 


8. 


形成 又 轴 和 萌 


E 标 系 下 的 点 云 数 据 重 投影 


P 我 们 将 真实 世界 4 
标 系 即 为 虚拟 坐标 系 ， 几何 模型 如 图 
的 点 设 为 虚拟 视角 点 也 即 为 虚拟 坐标 系 的 原点 ,彩色 摄像 头 距 
Yorr。 彩 色 摄 像 头 仰视 人 眼 的 角度 和 水 平 
。 虚 拟 坐 标 系 决定 了 虚拟 照相 机 的 安放 位 置 。 为 了 消除 仰视 和 水 平方 
标 系 进行 了 垂直 和 水 平方 向 的 角度 旋转 。 虚 拟 视角 坐标 系 Y” 轴 
色 摄 像 头 坐标 系 的 X 轴 
眼 的 角度 ， 这 是 为 了 矫正 头 部 和 视线 的 仰视 。 进 而 ， 虚 拟 视角 双 
拟 坐 标 系 的 Y 加 


E 标 系 下 的 摄像 机 外 参数 , 将 此 点 云 数 据 转换 为 虚拟 4 
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| 一 


E 标 系 下 的 点 云 数 据 , 最 后 
维 虚 拟 成 像 平 面 上 , 从 而 达到 视 


再 


加 


“ 标 系 设 为 彩色 摄像 头 的 坐标 系 。 虚 拟 


8 


折 的 Z， 轴 ， 


所 示 。 算法 将 左 眼 睛 


青 中 心 位 置 平 行 
E 离 虚拟 视 外 


偏 移 人 


眼 的 角 


方向 旋转 了 


几何 模型 


通过 虚拟 摄像 机 外 参数 的 目标 定 , 对 三 


氏 | 。 


色 摄 像 头 内 参数 保持 一 致 , 而 对 应 于 不 同位 置 下 的 硬件 设备 , 虚拟 
上述 提出 的 几何 模型 进行 外 参数 自 标定 。 


Z 
摄像 机 


3.3 面向 异 构 网 络 和 终端 的 沉浸 式 用 户 体验 质量 自 适应 技术 研发 


本 文 对 建立 面向 异 构 终 端的 用 户 体 验 质量 


频传 输 提出 了 以 下 的 研究 方案 。 
3.3.1 异 构 终 端的 沉浸 式 视频 用 户 体验 质量 模型 


我 们 采用 实验 和 理论 相 结合 的 研究 方法 。 既 有 实 
论 部 分 对 构造 多 媒体 业务 性 
用 户 体 验 质量 和 服务 质量 参数 之 间 的 映射 关系 部 分 分 别 进行 闲 述 , 并 最 终 
射 关系 构 建 了 端 到 端的 多 媒体 业务 质量 衡量 体系 。 


部 分 以 及 


体验 质量 和 服务 质量 


会 


月 


上 衡量 体系 的 由 


参数 之 间 建 立 的 上 


模型 建立 
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i 
部 
念 部 


模型 并 实现 其 自 适应 , 以 构筑 多 通道 


分 对 用 户 体验 质量 的 分 析 , 也 有 理 


标 系 的 X 轴 和 
即 摄 像 机 水 平 偏 移 人 眼 的 角 
局 移 感 。 如 此 就 形成 新 的 虚拟 坐标 系 如 上 记述 ,本文 假设 


摄 相 


加 
入 
即 


的 
HZ 
摄 


人 5 


EE 数据 进行 旋转 变换 ,再 利用 摄像 机 成 像 模 型 映 


自 适 应 视 


,下 面 对 用 户 体验 质量 


参数 实验 碳 


多 


民 据 


站 沁 


测 取 用 户 体验 质量 的 数据 一 般 分 为 主观 和 客观 两 种 
方法 。 现 在 的 客观 评价 主要 是 基于 均 方 误差 或 者 峰值 信 
角 的 物理 意义 ， 测 试 比 较 容易 ， 作 


噪 上 
是 | 
与 主观 感受 并 不 相符 。 


上 ， 这 些 指标 有 明 胡 


于 没有 考虑 到 人 类 视觉 特性 (HVS) ,所 以 评估 
缩 视频 的 帧 速率 ， 
空间 分 辨 率 被 联合 调整 后 ， 计 算出 来 的 均 方 误差 或 者 峰 
值 信 噪 比 总 是 不 能 反映 视频 的 主观 质量 。 


主观 方法 需要 依靠 对 用 户 的 调查 和 用 户 的 投诉 分 析 


特别 是 ， 


远程 沉浸 式 


然 交 互 


分 析 视 频 的 特点 


疆 


一 口 


AL 


可 人 


等 方式 ， 从 用 户 体 验 的 角 


度 收 集 多 种 业务 的 用 户 


体验 


量 统计 数据 。 


测 客 观 类 方法 取得 的 数据 


但 是 这 样 做 局 限 性 较 大 ， 不 适合 长 
模 的 使 用 ， 只 能 在 固定 场合 进行 小 规模 的 验证 
凡 准 前 
考 依据 。 以 下 为 其 体 的 方法 过 程 。 

用 户 体 验 质量 是 完全 从 用 户 的 角 
数 ， 我 们 通过 引入 切实 可 靠 的 实验 数据 来 基体 地 分 析 这 


期 大 
用 来 
外 性 并 为 客观 方法 提供 


~ 


但 
果 


设计 和 确定 QoE/ 
QoS 之 间 的 关系 


确定 测试 环境 和 
测试 样本 


分 析 数 据 
的 合理 性 


选择 QoE 模 型 


图 9， 面向 异 构 终 端的 用 户 


质 
规 
检 
参 


给 


度 出 发 测 得 的 


层 参 数 。 目 前 较 广 泛 采 用 的 是 
] 户 体验 质量 的 主观 感受 分 为 5 个 等 级 ， 


学 。 


我 们 的 研究 围绕 用 户 体验 质量 的 参数 部 分 展 玫 


国际 


参 


体验 质量 模型 建 模 过 程 


电信 联盟 (ITU) 建议 的 “平均 值 估 计 法 ”(MOS)， 它 将 


验 对 用 户 体验 质量 参数 进行 


究 。 实 验 部 分 进 


损伤 制作 视频 片段 ,提供 给 


分 析 ， 最终 获 得 用 户 体验 质量 的 参数 权重 


定数 量 的 用 户 进行 1 
。 另 一 方面 ， 


服务 质量 层 参数 之 间 的 关联 关系 来 进 
学 理论 建立 模型 来 进行 分 析 ， 将 用 户 体验 质量 参数 集 整 体 引 入 到 系统 的 设计 ， 


步 观察 


3.3.2 非 对 称 带宽 的 多 通道 自 适应 视频 传输 


本 文 根 据 网 络 的 异 构 性 和 时 变 


特性 选择 最 新 的 标准 作为 而 
象 ， 从 提高 适 配 能 力 着 手 对 


自 适应 


完 对 


视频 传输 技术 进行 深入 的 
作 。 


在 视频 领域 ， 实 现 异 构 


网 络 视 
频传 输 的 传统 方法 是 : 在 视频 系统 
的 主 探 单元 (MCU，Master Control 


完工 


Unit ) 


压缩 。 但 由 于 转 码 压 缩 的 复杂 性 ， 
需要 额外 的 硬件 投资 ， 成 本 很 高 。 


上 针对 不 同 的 网 络 带宽 和 用 
户 需求 对 原始 大 小 视频 流 进 行 转 码 


而 且 , 随 着 异 构 环 境 的 不 断 复杂 化 ， 
这 种 转 码 的 方法 也 将 无 法 完全 胜 
王 。 所 以 我 们 在 异 构 网 络 的 条 件 


图 10. 


] 此 种 量化 的 方法 较为 细 


F， 从 定义 出 发 ， 
行 的 是 用 户主 观 评测 实验 , 通过 仪表 模拟 参数 
平 测 打分 ,对 得 


致 地 描述 了 用 户 的 主观 感 


un 


点 结合 用 户主 观 评测 实 


习 


到 


1 的 评测 结果 数据 进行 验证 、 
用 户 体 验 质量 层 参数 和 


我 们 通过 研究 


j 户 体验 质量 参数 的 意义 .这 部 分 主要 通过 数 


去 5 


视频 解码 
RTP/RTCP 


QoS 监视 


RTP: Real-time Transport Protocol， 实 时 传输 协议 
RTCP: Real-time Transport Control Protocol， 实 时 传输 控制 协议 
User Datagram Protocol, 用户 数据 报 协议 


适应 视频 流传 输 的 层次 结构 


下 ， 
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研究 了 采用 上 自 适应 速率 控制 实现 视频 增强 传输 的 方案 。 


第 12 卷 第 2 


自 适应 速率 控制 通过 


信息 技术 快报 


Information Technology Letter 


使 视频 流速 率 与 网 络 可 月 


日 带宽 


适应 整形 使 发 送 端 按照 自 适应 速率 探 人 


3 部 分 构成 ， 有 


我 们 首先 进行 源 速率 的 控制 , 这 术 
由 于 允许 的 传输 速率 是 有 限 的 ,传输 的 帧 间隔 与 视频 帧 的 间 
不 同 特征 视频 终端 的 分 析 ， 对 码 流 的 传输 系统 进行 


上 自 适应 速率 控制 、 自 适应 视频 和 自 适应 速率 整形 ， 如 图 
EF 可 以 保持 恒定 的 视频 质 


[a 
里 。 
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匹配 来 避免 网 络 拥塞 的 发 生 。 速 率 自 
关 指 定 的 码 率 发 送 。 网 络 的 视频 流 自 适应 传输 技术 主要 


10 所 示 。 


输 的 帧 间隔 与 视频 帧 的 间隔 是 不 同 的 ,为 了 使 实时 
效果 , 在 实时 视频 通信 系统 中 采用 了 公平 怕 
特性 , 采用 机 会 模型 改进 率 平滑 技术 , 提出 基于 特征 的 机 会 传输 解决 方法 ， 通 i 


的 速率 等 获得 稳定 的 传输 效果 。 


隅 是 不 同 的 。 


和 


央 整 。 由 


[回放 时 具有 
传输 的 方法 ,3 


更 小 的 波动 


页 里 . 


同时 考虑 码 流 的 传输 系统 。 
因此 本 技术 根据 对 
于 允许 的 传输 速率 是 有 限 的 ， 传 


三 


TIA 


与 更 好 的 浏览 


3.4 基于 麦克 风 阵 列 的 沉浸 式 高 保 真 语音 交互 


我 们 在 沉浸 式 高 保 真 
方面 的 在 
研究 
构建 相应 的 系统 。 


采用 
能 模块 如 


ba 


11 所 示 。 


的 系统 流程 和 系统 主要 功 
事实 上 ， 远 程 


音频 交互 
究 内 容 是 基于 麦克 风 阵 列 ， 
沉浸 式 高 保 真 语音 交互 技术 ,并 


交谈 的 每 一 端 都 既是 音频 输入 端 , 又 


是 音频 输出 端 。 在 音频 输入 端 ， 
经 麦克 风 阵 列 采集 及 噪音 消除 、 


ee 
日 


频 
回声 


里 后 产生 高 质量 的 


音频 


消除 等 预 处 理 后 7 
信号 ; 单 路 音频 信号 编码 后 经 由 


网 络 


传输 至 远程 音频 输出 端 。 在 输出 端 ， 


接收 单 路 


音频 信号 ， 进 行 场景 还 原 ， 


麦克 风 
采集 系统 


_ACC 
音频 编码 


结合 视频 通信 系统 


k 有 多 特征 的 
过 控制 视频 流 


ACC 音频 编码 : Advanced Audio Coding， 一 种 基于 MPEG-2 


的 音频 编码 


ba 


11. 


沉浸 式 高 保 真 音频 交互 系统 流程 


即 采用 HRTF (head-related transfer function， 头 部 相关 传输 函数 ) 模型 生成 针对 双 耳 的 双 声 


道 音频 ， 同 时 条 


j 串 声 消 除 技术 生成 适合 于 扬声器 直接 揪 


放 的 声音 信号 ， 


并 送 至 音箱 播放 。 


具体 的 工作 为 : 
(1)， 基 于 麦克 风 阵 列 的 高 保 真 音频 采集 和 处 理 

当前 已 有 的 远程 视 音频 互 20 
动 系统 多 数 面向 视频 会 议 的 应 20 人 
用 ， 在 音频 方面 ， 一 般 为 每 位 | 
和 4 
与 者 发 言 时 开启 麦克 风 以 开始 20 50 100200 500 1k 2k 5k 10k20k 
音频 采集 。 这 种 方式 可 避免 环 ee 
日 八木 
境 噪声 ， 提 高 音频 质量 ， 但 是 方向 特性 (1kHz) 频率 特性 
0 图 12， 采 用 超 心 型 指向 麦克 ， 保 证 
一 定 限制 ， 要 求 用 户 必须 靠近 采集 的 精度 ， 降 低 场景 噪 半 
麦克 风 讲话 。 更 为 重要 的 是 ， 人 
这 种 方式 丢失 了 说 话 人 的 位 置 、 距 离 等 信息 ， 无 法 用 于 营造 沉浸 式 的 音频 环境 。 因 此 ， 本 文 
采用 基于 麦克 风 阵 列 的 音频 采集 系统 ， 能 够 采集 较 远 距离 (1~3 米 ) 的 声音 ， 用 户 无 需 佩 戴 或 
手持 麦克 风 即 可 自由 参与 交谈 。 


行 捕捉 


远程 沉浸 式 


在 采集 设备 方面 , 我 们 的 系统 使 用 多 个 灵敏 的 超 必 
其 频率 和 方向 特性 如 图 12 所 示 。 该 麦克 


降低 


同时 


信和 号 
频 信 


(2). 


场景 噪音 。 
为 了 去 除 背景 噪音 ， 我 们 对 使 用 麦克 风 阵 列 


然 交 互 


心 型 指向 麦克 风 对 远 距 离 的 用 户 语音 进 
风 具 备 较 高 的 指向 性 ， 可 保证 采集 的 精度 ， 


上 捉 的 


各 音频 流 信息 进行 自 适应 噪音 消除 ， 


使 用 小 波 变 换 去 除 音 频 信号 中 的 噪音 , 保留 原始 信号 的 主要 成 分 ; 为 了 去 除 回 声 ， 我 们 
利用 一 个 自 适应 滤波 器 对 未 知 的 LRM 回声 通道 进行 系统 辨识 , 模拟 回声 路 径 , 通过 自 适应 
滤波 算法 的 调整 ,使 其 冲击 响应 与 实际 回声 路 径 相 荧 近 ， 从 而 得 到 回声 预测 信号 ， 再 将 预测 


音频 场景 建 模 和 还 原 


FE 


度 在 


号 从 麦克 风 接 收 到 的 语音 信号 中 减 去 ， 从 而 实现 回声 抵消 ; 为 了 提高 音质 ， 我 们 将 先 从 音 
号 中 检测 出 人 声 ， 并 通过 对 人 声 进行 放大 来 提供 音 


频 增益 


音频 场景 建 模 和 还 原 的 目标 是 对 人 的 双 耳 听觉 效应 进行 建 模 , 对 于 采集 和 传输 来 的 音频 
言 号 进行 场景 还 原 ， 从 而 营造 出 共有 方向 和 距离 感 的 立体 音频 效果 。 


人 的 听觉 之 所 以 会 产生 立体 感 ， 主 要 取决 于 ITD 和 IAD: 


ITD (Inter Aural Time Delay) 为 两 耳 延 迟 的 时 间 差 。 声 波 在 空气 中 是 以 每 秒 340m 的 速 
传播 ， 我 们 可 以 假设 我 们 双 耳 之 间 的 距离 为 20cm， 如 果 声 源 在 右边 ， 声 音 一 定 是 先 3 


达 人 
就 会 


的 右 耳 然后 再 到 达 左 耳 ， 而 这 个 延迟 大 概 有 580u s。 如 果 是 正 前 方 传 来 的 ， 那 么 声 
同时 达到 两 个 耳 条 。 所 以 很 容易 通过 三 角 函 数 的 方法 得 到 声 源 所 在 方向 。 因此， 人 脑 


过 ITD 可 以 毫 不 困难 地 得 到 声音 的 方位 。 
IAD (Inter Aural Amplitude Difference ) 为 两 耳 音 


量 大 


小 差 。 当 声音 被 物体 挡住 ， 所 听 到 的 声音 会 


如 果 
右边 
也 可 


会 变 小 。 


声音 从 左 方 传 来 ， 那 么 左 耳 保留 了 原始 音 


旦 ， 而 


的 音量 会 减 小 ， 因 为 头 部 会 吸收 震动 。 所 以 说 人 


以 通过 IAD 来 判断 音源 的 位 置 。 
为 进行 立体 声学 场景 的 建 模 ， 本 文系 统 采 月 


了 前 


述 之 HRTF 函数 技术 。HRTF 是 一 组 滤波 器 ， 系 利用 


ITD、 
音 传 
环绕 
理 虚 
取 。 


立体 
据 和 


He 和 Hi 分 别 代 表 右 是 和 左 耳 
的 HRTF 冲击 响应 ，Eo 代表 输 


入 ， 


IAD 和 耳 廓 频率 振动 等 技术 产生 立体 音效 ， 


使 声 


递 全 人 耳 内 的 耳 廊 、 耳 道 和 训 膜 时 ， 聆听 者 会 有 


音效 的 感觉 。 通 过 数字 信和 号 处 理 ，HRTF 可 实时 处 


拟 世 界 的 音源 。HRTEF 参数 可 采用 模拟 声学 实验 获 


使 用 HRTF 数据 实现 虚拟 

声 合成 是 指 求 HRTF 的 数 

预 处 理 声音 信号 的 卷 积 。 若 输 
入 


经 过 HRTF 输出 为 : 


快速 傅 里 
叶 变 换 


图 14. 


En = HrEo 
五 = 好 Pu 
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4 由 扬声器 一 房间 一 话 简 (Louder speaker-Room-Microphone) 构成 的 声学 回 授 所 形成 的 回声 


盘 下 也 


图 13， HRTFs 的 左右 耳 图 形 表 示 


频 域 合 成 虚拟 音频 流程 


r 
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我 们 使 用 单 声 道 信 号 ， 在 频 域 内 虚拟 合成 为 具有 临场 感 的 音频 。 如 图 14 所 示 ， 系 统 首 
先 对 声 源 信号 进行 快速 傅 里 时 变换 , 变换 后 分 别 对 左右 声 道 进行 HRTF 计算 , 最 后 再 通过 快 
速 逆 传 里 叶 变换 得 到 立体 声音 频 。 
由 于 我 们 的 系统 中 采用 了 通过 扬声器 重 放 的 方法 ， 会 引入 交叉 串 声 〈Cross-talk)， 就 是 
不 但 左 耳 , 而且 右 耳 也 能 昕 到 左 端 扬声器 发 出 的 声音 ,反之 亦 然 。 这 就 破坏 了 双生 声 道 所 还 
原 的 空间 信息 ， 因 此 双 耳 信号 在 重 放 前 应 该 进行 消除 串 声 处 理 。 
如 图 15 所 示 ， 两 个 扬声器 对 称 地 放 在 收听 者 两 侧 〈 夹 角 为 2 2)， 左 右 声 道 的 双 耳 传输 
函数 分 别 为 Hiz，Hrri，Hrr，Har， 人 的 双 耳 听 到 的 声 压 为 : 


| ea ea | -a | 
P. Hi HrrjLR Hir ijL4， 4 En Er. 


其 中 EL,ER 为 HRTF 计算 后 输出 ; A 为 串 声 消除 矩阵 ; 工 与 R 为 喇叭 的 输出 


要 实现 串 声 消除 ， 就 需要 通过 计算 得 到 合适 
的 喇叭 输出 工 和 RR， 其 关键 在 于 确定 串 声 消除 矩 
阵 4 。 选 择 串 声 消除 矩阵 的 传输 特性 ， 使 
得 [4]=[HJ'， 于 是 PL=EL，Pr=Er， 这 样 扬声器 的 
双 耳 声 压 与 耳机 的 重 放 就 相同 了 ， 从 而 消除 了 串 
声 。 一 般 扬 声 器 的 左右 声 道 是 对 称 的 ， 即 
Hrr=Hrr=a, Hrri=Hrr=B, 所 以 矩阵 可 以 写成 


-zr aq 


图 15， 交 叉 串 声 消除 


其 中 wx， 6 为 常数 
综合 基于 HRTF 的 音频 场景 还 原 和 串 声 消 除 , 最 终 得 到 扬声器 左 、 右 声 道 的 输出 分 别 为 : 


其 中 Hr 和 FT 分 别 代表 右 耳 和 左 耳 的 HRTF 冲击 响应 ，Eo 代表 输入 音频 信号 。 
4 总结 


为 了 提高 远程 视频 自然 交互 的 沉 温 感 ， 本文 从 四 个 方面 做 出 了 分 析 和 研究 , 在 服务 于 远 
程 视频 的 音 视频 领域 形成 了 知识 产权 壁垒 。 通过 技术 的 突破 ,能够 使 异地 交互 的 双方 有 同 处 
一 室 的 体验 , 能 够 保证 实时 的 眼神 交流 和 高 保 真 的 语音 交互 , 同时 能 对 网 络 传输 的 视频 进行 


评 佑 。 随 着 网 络 电视 的 普及 和 发 展 ， 本 文 研究 成 果 会 有 助 于 沉浸 式 技术 走向 产业 化 的 道路 。 
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